查看原文
其他

Amoro 试用&贡献活动 | 9月社区评选揭晓

Amoro Community Apache Amoro
2024-09-10
点击上方蓝字关注我们,了解更多内容

Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

Amoro 开源社区在 2023 年 8 月 10 号发起了新版本的试用与贡献活动。试用活动旨在帮助用户更快地上手 Amoro,同时也在试用过程中收集用户的使用场景,挖掘项目存在的优化改进内容和新的功能需求。贡献活动则希望更多的开发者参与到 Amoro 的贡献中来,使得 Amoro 社区更加多元化,以获得更加长远的发展。

活动距今已经过去两个多月,共有24位用户参与到试用活动中,15位开发者参与贡献活动。非常感谢每位参与者的积极热情和无私奉献,你们的付出和努力是帮助 Amoro 不断前进的重要支撑。同时社区也准备了礼品赠送给在活动中做出了杰出贡献的同学。统计范围为活动发起至 2023 年 9 月 30 日。统计共有6名试用用户在统计时间范围内提交了试用反馈,社区也从所有贡献者中评选出了两名MVC(Most Valuable Contributor)。


01
9月 MVC

Mentor shidayang:来自思科的白旭(Github ID: XBaith)从2022年11月开始参与 Amoro 社区的贡献,距今已经贡献了26个PR (Pull Request),在9月份的贡献活动中独立贡献了”支持数据过期“和”Transaction页面支持展示详情“两个重要特性。同时白旭作为 Amoro 开源后的天使用户,帮助 Amoro 在 Iceberg Format 的自动优化和云原生部署两个场景提供了非常多的场景反馈和优化建议。

XBaith

Amoro Committer



个人介绍:我来自思科Webex数据平台团队,作为初出茅庐的开发者,这是我首次深度参的开源项目

社区经历:22年10月份我们就尝试利用Arctic(现Amoro)来处理我们的Iceberg表。参与开源时会结合我们生产遇到的实际情况和社区需求:在前期主要为在大规模Iceberg表合并上的优化,后来逐渐增加了列属性,快照信息的展示,数据文件过期的清理等功能。

社区寄语:Amoro在社区氛围上积极听取用户的真实需求和建议,社区成员对待用户问题时解答的耐心和负责也让人印象深刻,因此我祝愿也相信Amoro社区成为国内乃至国外最好的开源社区之一。


Mentor baiyangtx个人独立开发者陈政羽(Github ID: czy006)从2023年9月开始参与 Amoro 社区的贡献,距今已经贡献了9个PR,在9月份的贡献活动中深度参与了“Amoro 与 Kubernetes 集成“的开发工作,并独立承担了”Amoro Mixed Format Flink Connector 支持 Flink 1.16/1.17“ 的开发工作。同时陈政羽同学还主动担任 Amoro 在开源社举办的2023年开源年会(COSCon 2023)活动中的分享嘉宾,带来了《开源湖仓管理系统-Amoro》的分享。


czy006

Amoro Contributor



个人介绍:Apache Flink、StreamPark 与 Amoro 的贡献者。

社区经历:主要参与公司大数据平台以及数据管道的相关开发。2018年起,开始投身于大数据相关的开源社区工作。今年3月初在学习 iceberg 时偶然发现网易推出了一款数据湖优化和管控软件,引起了我的极大兴趣,这是我初次接触 Arctic(现 Amoro)。8月在ASF遇到了周劲松老师,对 Amoro 有了更为深入的认识。9月开始,深度参与社区,进行功能开发。

社区寄语:Amoro 作为新兴的数据湖仓管控平台,即将发布的 0.6.0 版本将引入许多创新功能。诚邀大家热情参与、使用和为其贡献。在开源社年会,我们对 Amoro 进行更多的宣讲与分享。期待听到社区的声音和建议,共同推动Amoro 茁壮成长。欢迎更多的朋友加入这个大家庭,与我们一同前行。



02
试用用户反馈试用活动中,上海钢联、百分点科技、拓尔思、高济医疗、乐品星河和某区块链公司共6位用户向社区提交了试用反馈。上海钢联上海钢联将 Amoro Mixed Iceberg 表应用到实时报表、质检等业务场景中,构造流批一体的湖仓系统。借助 Amoro 开箱即用的能力,以及 Mixed Format 在 upsert 和 MOR 等方面的功能特性和优化,成功解决了在生产场景中流批一体、数据实效性等方面的需求,也为社区提供了 Mixed Format 的实践经验。百分点科技:百分点科技期望将数据湖技术引入数据治理相关的服务中,改造现有的架构,提供update能力以及提高数据实效性。目前已经完成了 Iceberg Format 表在 Amoro 下的数据合并等功能验证,正在 optimizing 可视化配置方面做一些优化尝试,同时也借助 AMS 集中管理 catalog,统一已有的 hive 表和新的数据湖表的管理。高济医疗:高济医疗使用 Amoro 解决了自动优化 Iceberg 湖仓表的线上需求。为了提升原来业务离线分析(Hive)场景下的数据实效性,引入了 Iceberg 表,由 Flink 实时写入,然而 cdc 入湖产生的大量小文件对 hdfs 的 namenode 产生了很大压力,使用 AMS 合理设置,开启自动压缩,快照过期时间,孤文件定期清理,从而有效地解决了小文件存在的问题。拓尔思:拓尔思将数据湖技术引入实时链路构建中,通过引入 Iceberg 表 + Flink CDC 实时写入完成数据实时入湖,然后通过批调度 ODS 层增量计算构建准实时链路。由于云平台调度容器内存大小限制,CDC数据存在大量历史分区更新,已经峰值流量问题,Iceberg Spark Rewrite 无法很好的满足 Iceberg 表的治理,因此引入 Amoro , 通过持续的 Optimizing 完成数据湖表的治理问题。整体使用规模较大,完成了 500+ Iceberg 表规模的生产验证。难点案例:在拓尔思接入Amoro 过程中,曾经持续的出现 OOM 情况,当 AMS 启动一段时间后,内存占用不断上涨。在社区指导下,通过 JMAP 监控定位到 FileSystem 对象数量异常,然后与社区开发者一起阅读源码,并且使用 Arthas 等工具定位调用栈,最终发现 Kerberos 环境下, principal 使用 ShortName 会导致 Hadoop 的 FileSystem Cache 失效。后在社区开发者指导下,完成 Bug 修复并合并入 master 。某区块链公司:过引入数据湖技术完成实时生产数据的治理。在接入数据湖之前,实时生产是基于 TiDB 构建实时数仓进行 OLAP 分析和 CDC 入仓,而离线生产使用 CDH 技术栈。因此流批数据并没有打通,独立运维 TiDB 相对本较高,并且由于 TiDB 集群资产扩容不方便,较大的 OLAP 分析 SQL 会对集群产生影响。在接触 Amoro 项目后,一起验证了基于 Iceberg 的实时链路替代方案在生产场景下的可行性,替代后的实时生产链路通过 Flink CDC + Iceberg 完成了实时数据入湖,后续通过 ODS 增量读 + Merge Into 的方案完成了原有基于 TiDB 的数据加工方案的替代,并且最终基于 HiveSQL 的 OLAP 分析完成了 TiDB 的替代。替代后的方案存储成本大幅下降(存储基于 s3),并且基于 HiveSQL 实现了计算资源的弹性利用,整体资源利用率得到提升,大型 etl 的调度时长提升70%以上。乐品星河:乐品星河通过引入 Iceberg 将线上数据库的数据同步进数据湖,减轻一些查询任务对线上数据库的压力。整体方案通过 Flink CDC 将数据库数据同步进 Iceberg。使用 Amoro 对 Iceberg 进行托管维护包括,文件合并,快照过期,文件清理等。同步进 Iceberg 的数据通过 Trino 提供查询服务。成功释放了线上数据库的查询压力。03
欢迎试用与贡献

试用与贡献活动持续至 2023 年 12 月,社区将每月统计上一个月的试用与贡献情况,有效试用反馈的小伙伴将获得一份社区周边大礼包,月度 MVC(Most Valuable Contributor)可获得社区准备的 AirPods 奖品一份。

如果你也有试用或者贡献的意愿,可以在微信中添加”kllnn999“(Amoro小助手)为好友并报名小助手邀请入专门的试用群,会有社区 Mentor 联系你,协助你完成版本试用和项目贡献。





END

看到这里记得关注、点赞、转发 一键三连哦~

精彩回顾:

Amoro 0.6.0前瞻,前面适配 Kubernetes 与 S3

Amoro Mixed Format 上海钢联的构建实时湖仓实践

Apache Iceberg + Arctic 构建云原生湖仓实战企查查基于 Apache Iceberg 与 Arctic 构建实时湖仓实践
关于 Amoro 的更多资讯可查看:官网:https://amoro.netease.com/源码:https://github.com/NetEase/amoro社群:后台回复【社群】或扫描下方二维码↓,邀你进群


点击下方【阅读原文】直达 Amoro 官网
修改于
继续滑动看下一个
Apache Amoro
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存